您是否有做過投資運彩的發財夢呢,或幻想過周公託夢給您一封如何靠投資運彩賺大錢的《財富密碼》!?
但是…幻想發財夢這些行為是不切實際的,不過今天我們Guess365數據工程師分享一篇卻能離發大財近一點的預測方法。
今天來分享一篇研究,由Shu-Fen Li所撰寫的《Exploring and Selecting Features to Predict the Next Outcomes of MLB Games》,是一篇利用資料累積方法搭配機器學習去預測MLB明日比賽結果,根據實驗結果呈現該方法有高達65~70%的準確率,若專注於某隊伍真的能夠賺大錢。
本篇文章源自:Guess365平台
實驗流程
如圖一所示為作者建構模型的工作流程,實驗所蒐集的MLB比賽數據皆來自Baseball-reference.com網站,該網站提供各種棒球比賽進階數據。
作者選擇使用的預測方法很特別,他依據每一支隊伍把比賽拆分成不同資料集,並為此訓練一個專屬他們的預測模型。
工作流程
選擇的特徵皆是一些基本數據,像是打擊群的安打數(H)、全壘打數(HR)、打點(RBI)、上壘率(OBP)…、投手群的的三振數(SO)、四壞球數(BB)、防禦率(ERA)、每局被上壘率(WHIP),與球隊當季勝率(WIN%)。
特徵選擇
資料前處理如標題提到的方法,他們參考其他做的作法選擇使用資料累積法,將每個特徵依據比賽場次一直累加直到賽季結束。如圖三是太空人隊的數據,從2015年第1場到累加到第162場,隔年2016年則從頭開始累加。
資料累積數據
工作流程也提到他們有使用特徵篩選,來評估選前、選後的效果,遞迴特徵消除(Recursive feature elimination, RFE)是在包裝法(Wrapper)常見篩選方法,主要原理是通過建構基本模型,並給定特徵集合N、想要的特徵數量X後,RFE會根據演算法取出coef_及feature_importances_,來刪除不重要的特徵,而剩餘的特徵則會進行下一輪訓練,並重複上述動作直到達到想要的特徵數量。
特徵篩選
預測模型
選擇不同的分類演算法對於預測結果具有一定影響力,作者選擇使用的分類演算法有四種,(一) 邏輯迴歸 (Logistic Regression);(二) ANN (多層感知器);(三) 1 DCNN(一維CNN);(四) SVM(支援向量機)。
根據結果顯示作者使用資料累積法對SVM能產生不錯的預測準確度,Guess365數據科學家根據方法復刻模型與資料集的確效果不賴,每隻隊伍的SVM都有65~70%準確度。
性能評估
獲利能力也不錯,如果我把2021年洋基整季的比賽餵給模型做預測,準確度高達62%,若平均下注1000NT最終獲利也有6420NT回饋。
獲利評估
小結
作者將模型拆分成30種小模型,搭配資料累積方法來針對每支球隊的比賽風格做預測。跟以往將所有比賽數據參雜在一起做訓練有些不同,我想作者的用意是專精單一種球隊會比專精所有球隊更能達到訓練效果吧,就好像學生到大學後也開始專攻自己喜愛的科目一樣。
作者提供的預測方法同時也反應,分散投資的重要性。